#Nano Banana
Google2025「復仇爽文」大結局!從至暗時刻到王者歸來
【新智元導讀】年初被唱衰,年底卻直接封神:2025年的Google,把AI圈寫成了一本爽點密集的復仇小說!Gemini 3、Nano Banana、諾獎、晶片、智能體齊上陣:矽谷AI鐵王座還是Google的!回顧2025年,對於Google來說,可謂是一部跌宕起伏的「復仇爽文」。如果說年初外界還在唱衰這家巨頭「大象難轉身」,那麼到了年底,Google用實力上演了一出從被打落神壇,到揚眉吐氣、重回巔峰的好戲。尤其是年底這波Gemini 3和Nano Banana的組合拳,簡直是降維打擊!不僅穩穩佔據了LMArena的榜首,更是在推理和多模態能力上打得對手OpenAI一個措手不及。Google在向世界宣告:矽谷的AI鐵王座,依然姓Google。就在剛剛,GoogleAI掌門人們:首席科學家Jeff Dean、DeepMind CEO Demis Hassabis以及負責技術與社會的SVP James Manyika三位重量級人物聯名發佈了Google2025年度總結。而且也給AI這一年定了一個基調:這一年,是屬於AI智能體、深度推理與科學探索的大成之年。Google這一年把「科研」變成「現實」,在8大領域實現了全面突圍。以下是Google這一年「秀肌肉」的高光時刻:模型層面的「碾壓」:Gemini 3重新定義天花板Google今年的策略非常狠:「下一代的Flash模型要比上一代的Pro模型更強」。從3月發佈的Gemini 2.5到11月震驚業界的Gemini 3,Google徹底解決了推理能力的瓶頸。Gemini 3不僅在「人類終極考試」這種變態難度的基準測試中拿下了突破性高分,更通過Gemini 3 Flash實現了性能與成本的完美平衡。現在的Google模型,既能深思熟慮(DeepThink),又能快如閃電。開發者的「新紀元」:Google Antigravity如果說以前的Copilot只是幫你補全程式碼,那麼Google今年推出的Google Antigravity則是徹底顛覆了軟體開發。這不是工具,而是真正的「Agent(智能體)」。配合非同步程式設計Agent Jules,現在的開發者擁有的不再是一個助手,而是一支隨叫隨到的專家團隊。創意工具的「爆發」:Nano Banana 與Veo在生成式媒體領域,Google今年簡直是「玩嗨了」。Nano Banana Pro和Veo 3.1的出現,讓圖像編輯和視訊生成進入了專業級時代。無論是通過Nano Banana進行原生的圖像修改,還是用MusicAI Sandbox輔助音樂創作,Google正在把頂級創意能力下放給每一個人。科學界的「諾獎收割機」這或許才是Google真正的護城河!2025年,AlphaFold團隊不僅迎來了5周年,更見證了Hassabis等人憑藉它斬獲諾貝爾獎的榮耀。不僅如此,Google員工Michel Devoret亦在今年榮獲諾貝爾物理學獎。從AlphaFold到能解決數學奧賽金牌題目的DeepThink,再到AI科學家,Google證明了AI不僅僅是聊天機器人,更是解開宇宙奧秘的鑰匙。硬核基建:Ironwood與AlphaChip當別人還在搶GPU的時候,Google已經用AI來設計AI晶片了。今年推出的Ironwood TPU專為推理時代打造,而這背後功臣正是AlphaChip設計方法。軟硬一體的實力,讓Google在能效和算力上擁有了難以複製的優勢。具身智能:AI擁有了身體Google不僅讓AI思考,還讓它「動」了起來。Gemini Robotics 1.5和Genie 3的發佈,標誌著通用世界模型的新前沿。AI智能體正在走出螢幕,進入物理世界和虛擬環境,開始真正地理解和操縱世界。全球影響力:預測未來,拯救生命在應用層面,Google的格局打開了。最新的Weather Next 2模型能以驚人的精度預測天氣,洪水預報覆蓋了全球20億人。從NotebookLM的深度研究功能到Pixel 10的AI體驗,Google正在把「黑科技」變成每個人手中的「水電煤」。還有GoogleEarth AI,最先進的地理空間AI模型。安全與責任:走得快,更要走得穩在狂飆突進的同時,Google依然保持了克制。Gemini 3被稱為Google迄今為止最安全的模型,通過了最全面的紅隊測試。隨著模型能力持續增強,不斷升級工具鏈、資源體系與安全框架,以預見並降低潛在風險。Gemini 3正是這一理念的實踐典範:作為Google迄今最安全的模型,它經歷了公司AI模型中最為全面的安全評估體系。更著眼長遠,探索通往通用人工智慧的負責任路徑,著重提升風險應對能力、完善主動風險評估機制,並與更廣泛的人工智慧社群開展協作。2024年是鋪墊的草蛇灰線,2025年才是一切的爆發。這份涵蓋了從底層晶片、核心模型到頂層應用、科學探索的成績單,我們不得不承認:那個熟悉的、令對手窒息的Google,回來了!看來,2026年,好戲才剛剛開始。Google2025年AI年度回顧一月新年伊始,Google在Gemini、Android、GoogleTV和教育工具上推出了一系列更新。推出了由Gemini驅動的更強大的Android助手:提升手機端的AI體驗,讓助手更懂你的需求。公佈了針對三星GalaxyS25系列及更多裝置的Android系統更新:通過系統底層最佳化,讓新裝置更好地運行AI功能。發佈了面向2025年的全新Google教育工具:推出了一系列新功能,旨在助力教師教學與學生學習。在CES上展示了Google TV的最新功能和改進:利用AI技術提升內容推薦精準度,改善家庭娛樂體驗。在Gemini應用中推出了Gemini 2.0 Flash版本供使用者嘗鮮:以更快的速度和更低的延遲,讓使用者體驗新一代模型的響應能力。二月本月重點展示了AI如何在求職和科學研究等領域帶來實質性改變。宣佈Gemini 2.0模型正式向所有使用者開放:全面放開存取權,讓每個人都能使用Google最新的基礎模型。Gemini Code Assist程式設計助手現在免費提供:降低開發者門檻,利用AI免費輔助編寫和偵錯程式碼。推出了一項新實驗功能,利用AI幫助人們探索更多職業發展的可能性:通過分析使用者技能與興趣,智能推薦潛在的職業路徑。發佈了一款專為科學家設計的新型AI系統:該系統能輔助科學家提出假設、設計實驗並規劃研究路線。iOS使用者現在可以在瀏覽網頁時使用Lens搜尋螢幕上的內容:打破應用壁壘,在蘋果裝置上也能體驗「所見即搜」的便捷。三月搜尋中的AI模式(AI Mode)首次亮相,同時發佈了Gemini 2.5和Gemma 3。發佈了當時Google最智能的AI模型Gemini 2.5:在推理能力和多模態理解上取得了顯著突破。推出了Gemma 3,這是可在單個GPU或TPU上運行的最強模型:為開源社區和端側開發提供了極其強大的性能支援。擴展了AI Overviews功能,並正式引入了「AI模式」:在搜尋中處理更複雜的查詢,提供深度解答而非簡單連結。Gemini應用上線了多項新功能,供使用者免費試用:包括更豐富的檔案分析能力和互動方式。推出了利用Gemini進行協作和創意創作的全新方式:在Workspace等工具中深度整合,提升團隊協作效率。四月硬體與雲端算力的大幅升級,為AI時代奠定基石。發佈首款專為「推理時代」打造的TPU Ironwood:在Google Cloud Next大會上亮相,大幅提升AI推理效率。推出了Google Vids的全新AI視訊生成功能:Workspace使用者可利用AI快速生成工作匯報視訊。發佈AI驅動的網路安全防禦系統:利用大模型即時檢測並防禦複雜的網路攻擊。CloudAssist雲端助手能力升級:幫助企業使用者更智能地管理雲資源和排查故障。發佈了Imagen 3的圖像生成增強版:在生成圖片的細節和文字渲染能力上達到新高度。五月Google I/O開發者大會召開,發佈了AI電影製作工具Flow和Veo 3。回顧Google I/O 2025,展示從研究到現實的跨越:總結了AI技術如何全面落地到Google的產品生態中。推出了由Veo 3驅動的AI電影製作工具Flow:為創作者提供好萊塢等級的AI視訊生成和編輯能力。推出了Google AI Ultra訂閱服務:整合了Google最頂尖的模型和功能,一站式滿足專業使用者需求。在購物中引入AI模式,支援虛擬試衣:利用生成式AI讓使用者在購買前看到衣物穿在自己身上的效果。搜尋中的AI進一步進化,轉向提供智能服務:不僅僅是尋找資訊,而是直接幫使用者完成任務。六月開發工具與移動作業系統的智能化革新。發佈Gemini CLI,打造開源AI智能體工具:讓開發者能在命令列中直接呼叫Gemini建構智能體。正式發佈Android 16作業系統:系統底層深度整合AI,提升流暢度與個性化體驗。推出了SearchLive即時互動功能:支援使用者與搜尋引擎進行即時的語音對話和多模態互動。宣佈擴展Gemini 2.5模型家族:推出了針對不同側重領域(如程式碼、數學)的微調版本。展示了Gemini 2.5在高級音訊對話上的能力:實現了更自然、更具情感的語音互動體驗。七月AI功能深入日常,讓相簿和郵件變得更「聰明」。在Gemini中上線了照片轉視訊功能:利用AI將靜態照片瞬間轉化為生動的視訊片段。宣佈搜尋將迎來更高級的AI能力:增強對長尾問題和模糊需求的理解能力。利用搜尋中的AI模式提供學習新途徑:為學生提供定製化的學習計畫和知識點解析。Gmail推出「管理訂閱」新功能:智能識別並一鍵清理不需要的郵件訂閱,淨化收件箱。為Pixel使用者推送了驚喜功能更新(PixelDrop):通過軟體更新為舊款Pixel手機帶來了最新的AI特性。八月硬體盛宴,Pixel 10系列攜手全新AI體驗登場。正式發佈Pixel 10系列手機:搭載最新TPU晶片,是首款為「全天候AI」設計的終端裝置。Gemini圖像編輯功能迎來重大升級:引入更精準的局部重繪和風格遷移能力。宣佈向大學生免費提供GoogleAI工具:投入資金與資源,普及AI教育,賦能下一代創新者。在Gemini應用中上線DeepThink功能:讓模型在回答覆雜問題前進行更深度的邏輯推理。推出了全新的AI驅動航班搜尋工具FlightDeals:智能預測票價趨勢,幫使用者鎖定最佳出行時機。九月Chrome瀏覽器重構,AI開始接管瀏覽器體驗。揭秘Chrome瀏覽器全新AI功能背後的技術:解釋了端側小模型如何讓瀏覽器更快、更安全。利用AI重新構想Chrome瀏覽器:推出智能標籤頁管理、網頁摘要和寫作輔助等功能。介紹了通過SearchLive獲取即時幫助的方式:展示了在旅行、維修等場景下視訊通話式搜尋的威力。Android更新帶來更智能的寫作與分享:輸入法不僅能糾錯,還能根據語境自動補全長句。最新PixelDrop包含Material 3 Expressive升級:UI設計語言進化,帶來更靈動、更具表現力的互動動畫。十月具身智能與醫療AI取得突破,Gemini學會操作電腦。推出了Gemini 2.5 ComputerUse模型:模型現在可以像人一樣查看螢幕、移動游標、點選按鈕,執行複雜操作。發佈Veo 3.1模型並提升Flow功能:視訊生成的連貫性和時長進一步提升,支援更細粒度的控制。發佈專為Gemini建構的GoogleHome裝置:智能音箱和攝影機具備了更強的本地AI處理能力。分享Gemma模型幫助發現癌症治療新路徑:展示了開放模型在生物醫學領域的巨大科研價值。宣佈Nano Banana 模型應用更廣:這款輕量級圖像模型被整合到搜尋、NotebookLM和相簿中,提供極速體驗。十一月年度重磅,Gemini 3橫空出世,開啟智能新紀元。宣佈Gemini 3的誕生:Google迄今為止最強大的AI模型,具備前所未有的多模態推理能力。推出了更專業的Nano Banana Pro模型:在保持速度的同時,大幅提升了圖像生成的藝術質量和逼真度。面向開發者開放Gemini 3:API同步上線,邀請全球開發者共同建構基於新模型的下一代應用。Gemini 3為Gemini應用帶來新功能:普通使用者也能立即體驗到新模型帶來的更聰明、更人性化的對話。Google地圖導航功能通過Gemini獲強力升級:提供更直觀的實景導航和基於語境的地點推薦。十二月(December)以速度極快的Gemini 3 Flash和年度熱搜收官。推出了專為速度打造的Gemini 3 Flash:在保持高智商的同時,將響應延遲降至極低,適合即時應用。Gemini 3 Flash開始在全球搜尋中推出:讓每一次搜尋都能獲得瞬間生成的AI智能摘要。發佈了2025年度熱搜報告:回顧全年搜尋趨勢,展現AI如何重塑人們獲取資訊的方式。Android 16新更新幫助使用者組織資訊:利用端側AI自動整理手機中的通知、檔案和照片。將最先進的Gemini翻譯能力引入Google翻譯:實現了同聲傳譯等級的即時翻譯效果,打破語言障礙。 (新智元)
GoogleAI逆襲背後的頭號功臣
【新智元導讀】Google AI 在 2025 年下半年打了個漂亮的翻身仗,用 Nano Banana 和 Gemini 3 Pro 這兩款殺手級模型,從 OpenAI 手下搶走了大量使用者。背後的功臣,對內聲名顯赫,對外默默無聞。他是誰?他有著怎樣傳奇的故事?在Google最危險的時刻,一位不為外界熟知的中年人在內部臨危受命。他引領團隊開發出爆紅的AI應用,讓GoogleAI業務起死回生,甚至一度打敗 ChatGPT 登頂應用榜。他是誰?他的故事揭示了Google如何用創新和責任心,在 AI 競賽中重奪主動權。GoogleAI逆襲背後的「無名」功臣2025 年 8 月的一個深夜,Google資料中心的警報突然頻繁響起——伺服器負載飆升至前所未有的水平。工程師們開玩笑說,再這麼下去,他們特製的TPU晶片恐怕都要被燒化了。引發這一切的,是Google Gemini 應用中新上線的圖像生成功能「Nano Banana」。這個功能可以將多張照片融合成獨特的數字人偶,意外地在全球引爆了使用者熱情。短短幾天裡,海量使用者湧入嘗鮮,生成的圖片數量迅速突破數十億張,直接把Google的伺服器「烤」得冒煙。Google被迫緊急對 Nano Banana 的使用加以限制,以免後台基礎設施真的撐不住這股熱潮。然而,這場近乎「失控」的走紅非但沒有讓Google高層惱火,反而令整個公司為之振奮——Gemini應用終於一戰成名。在8月底功能推出後的短短一個月內,Gemini 累計生成圖像超過 50 億張,甚至一度超越 OpenAI 的 ChatGPT 躍居蘋果 App Store 下載榜首。而站在這一切背後的操盤手,正是一位在公司內部聲名顯赫,對外低調神秘的中年人:Josh Woodward。42 歲的 Josh Woodward 並非矽谷家喻戶曉的名字,但在Google內部,他幾乎是傳奇般的存在。這位出生於美國中部奧克拉荷馬州的產品經理,2009 年通過實習進入Google,從此一路在各種創新項目中嶄露頭角。早年間他曾參與建立Google最初幾代 Chromebook 筆記型電腦,聯合創立了面向新興市場使用者的「下一個十億使用者(NBU)」計畫,並主導了 Google Pay 支付服務的拓展。豐富的履歷和雷厲風行的作風,使他在內部備受推崇。正因如此,當Google在生成式AI領域感到空前的壓力時,管理層想到了 Woodward。2025 年 4 月,Google AI 戰線進行了一次關鍵人事調整:一直埋頭於實驗室業務的 Woodward 被提拔為 Gemini 應用負責人,接過公司AI戰略的帥印。當時,OpenAI 憑藉 ChatGPT 在 AI 領域風頭正勁,行業專家紛紛預言使用者將從傳統搜尋轉向AI應用。Google痛感自己的搜尋霸主地位受到威脅,加上母公司 Alphabet 一季度股價暴跌約兩成,亟需一場勝利來重振士氣。接任後的 Woodward 深知責任重大,他一手主管 Gemini 應用業務,同時仍領導著Google旗下的新興技術試驗田——Google Labs,肩負起在 AI 競賽中為Google開闢新賽道的雙重任務。「TPU 快被燒化了!」 AI爆款的誕生Woodward 上任後不久,就迎來了大顯身手的機會。這款名為 Gemini 的 AI 應用原本籍籍無名,卻因為一個名叫「Nano Banana」的新功能而聲名鵲起。Nano Banana 最初只是團隊的一次創意迭代:使用者可以上傳多張自己的照片,由AI將其合成為一個獨一無二的數字玩偶形象。沒想到這個充滿趣味的功能一推出就風靡全球,伺服器上一時間請求暴增。據Google AI 基礎架構負責人 Amin Vahdat 回憶:「我們的TPU晶片組當時幾乎要被烤化了!」。團隊不得不暫時為 Nano Banana 設定使用上限來緩解壓力。然而,這次「小危機」凸顯的正是巨大的機會:使用者對個性化AI創作的渴求超出了所有人的想像。Woodward 敏銳地意識到這正是 Gemini 突圍的契機。在他的推動下,團隊連夜擴容後台算力,全力保障這一功能的穩定運行。事實證明,這場硬體「險情」恰是 Gemini 騰飛的起點——到 9 月底,Gemini 應用累計生成的圖像已突破 50 億張。憑藉 Nano Banana 的爆紅,Gemini 應用的月活躍使用者從 3 月的 3.5 億飆升到 10 月的 6.5 億。更令Google揚眉吐氣的是,在 Nano Banana 帶動下,Gemini 在蘋果 App Store 的下載量一舉超越了 ChatGPT,登上免費應用榜冠軍。Google用了不到半年時間,就實現了從 AI 跟隨者到市場領跑者的驚人逆轉。Alphabet 公司的股票也隨之止跌回升,到年底累計上漲了 62%,成為當年美股中表現最亮眼的科技巨頭之一。這一切都令業界震動:Google似乎找回了久違的速度與激情,而推動公司完成這次AI領域「逆襲」的關鍵人物,正是 Woodward。對於 Gemini 的成功,Woodward 保持著難得的清醒與冷靜。他深知,在快速推進 AI 創新的同時,更需要慎重考慮技術可能帶來的負面影響。今年 11 月,Google發佈最新的大模型 Gemini 3,引發行業轟動。在接受媒體採訪時,Woodward 興奮地表示「我從來沒有像現在這樣覺得工作充滿樂趣」 ——AI 模型的強大能力讓各種天馬行空的產品創想成為可能。但身為掌舵者,他也時刻警惕著技術的雙刃劍。此前,他就在紅杉資本的播客節目中坦言,AI 的進步正處於一個足以「改變時代」的關鍵節點,這種改變「可能是向善的,也可能是適得其反的」。事實證明,Nano Banana 功能在爆紅的同時也一度引發爭議:有使用者使用它根據提示詞合成援非人道主義場景的形象時,生成的畫面卻是身著便服的白人女性周圍圍繞著非洲黑人兒童,引來種族刻板印象的批評。這類爭議讓 Woodward 更加意識到,AI 產品在追求創新的同時絕不能忽視社會責任。他要求團隊迅速最佳化演算法,避免再次出現類似偏見輸出,並強調任何 AI 新功能上線前都要經過更嚴格的審查。Google內部也在他的倡議下設立專門機制,評估熱門AI應用可能引發的道德和信任問題,力求在保持高速創新的同時守住「不會傷害使用者信任」的底線。Google在制定AI產品戰略時相當克制理性。Woodward和他的上級、DeepMind CEO 哈薩比斯(Demis Hassabis)商議後,有意避開了時下火熱但容易引發倫理爭議的「AI情感伴侶」方向,而是堅持將Gemini定位為提升工作效率的超級工具。Google內部給Gemini制定的考核指標並非使用者粘性或時長,而是每天幫助使用者完成了多少實際任務。這樣的取捨背後,是Woodward對於AI角色邊界的深思——AI最重要的價值應在於賦能人類,而非讓人沉迷於虛擬陪伴。當下,生成式AI正加速滲透進人們生活的方方面面,海量AI生成內容充斥網路,真偽難辨。Woodward比任何人都清楚,Google必須加倍謹慎,既要跑贏競賽,又不能因魯莽而丟掉使用者多年來對Google品牌的信任。因此,他在業務衝鋒的同時,以身作則地為團隊敲響警鐘:「我們正處在一個技術巨變的關口,這種變革將影響好幾代人。身處這個位置,我們必須確保它被用來促進善意,而非滋生危害。」敢想敢幹 「讓他們盡情去做」Gemini應用的成功並非偶然。事實上,Woodward上任之前就在Google內部孵化出多款頗具前景的AI產品。其中最出名的,當屬AI筆記助理NotebookLM。它最初只是Google Labs團隊一個默默無聞的試驗項目——資深產品經理Raiza Martin利用工作之餘的「20%時間」開發了一個名為Project Tailwind的原型:它可以讓使用者上傳文件、PDF甚至視訊,然後由AI提煉要點、生成摘要或見解。Woodward對這個創意一眼相中,大力支援團隊繼續打磨。為了把這個項目做成真正貼近使用者需求的產品,他大膽採取了一系列「非常規」舉措,打破了Google內部的慣例和層層壁壘。首先,Woodward從外部網羅來一位出人意料的「臨時盟友」——科技作家史蒂文·約翰遜(Steven Johnson)。Johnson在業界小有名氣,出版過多本暢銷書,卻從未在任何公司任職過。2022年,Woodward讀到Johnson關於AI與創意的文章後深受啟發,竟主動發出邀請,請他以訪問學者的身份加入Google Labs,共同探索如何用AI增強人類的創造力。對於這種「不按常理出牌」的合作模式,Woodward的想法很簡單:「讓四五個工程師和一個真正的作家碰在一起,看看會產生什麼火花」。在他的牽線下,Johnson開始兼職參與Project Tailwind,為團隊提供作家視角的輸入,分享職業寫作者整理資訊的工作流。工程師們在一旁觀察他的使用習慣,不斷改進產品功能。一段時間磨合後,Johnson深深投入其中,最後乾脆接受了Woodward的邀請轉為全職,擔任NotebookLM團隊的「創作總監」。這樣「破圈」的人才能夠加盟Google,靠的正是Woodward勇於創新用人的魄力。不僅如此,為了快速完善NotebookLM,Woodward還鼓勵團隊主動擁抱外部使用者社區的力量。在產品開發早期,團隊希望收集真實使用者的反饋來改進產品。按常規,Google內部有自己的論壇和郵件列表,可以用來做封閉測試。但年輕的產品經理Raiza更傾向於直接去主流社群與使用者互動,她選擇了當下開發者和AI愛好者云集的平台——Discord聊天伺服器。這在當時引起了一些內部爭議:畢竟Google一向偏好使用自家產品,很多高管甚至不知道Discord為何物。有管理人員質疑:「為什麼不用Google Meet會議或者內部群組?」對此,Woodward全力支援Raiza的提議。他乾脆對團隊撂下一句:「讓他們盡情去做吧(Let them cook)!」在他的力挺下,NotebookLM項目組順利搭建了Discord伺服器,與第一批種子使用者直接交流。這種開放姿態很快收穫了回報:借助社群力量,NotebookLM在打磨階段就吸引了大批AI發燒友的關注,產品不斷根據反饋迭代升級。到2024年底,該Discord社區已匯聚了超過20萬名成員,成為Google史上最活躍的產品使用者社區之一。很多團隊成員坦言,如果沒有Woodward頂住內部壓力允許他們「破例」用第三方平台,這款產品不可能進步得如此快、如此好。終於,2023年5月,Woodward帶著打磨成型的NotebookLM走上Google一年一度的I/O開發者大會舞台。在Google雲CEO托馬斯·庫裡安的主題演講結束後,Woodward出人意料地現身台上。他先是賣了個關子,向台下觀眾介紹說:「我們在幾周內用五名工程師拼出了一個新點子,叫作Project Tailwind。我自己的母校俄克拉荷馬大學師生也參與了內測。大家想看看它能做什麼嗎?」隨後,他現場操作筆記應用,匯入幾篇文件。不出幾秒,螢幕側欄便自動生成了這些材料的關鍵詞和延伸提問。他隨手點開「引用來源」按鈕,興奮地介紹道:「這個功能是我最喜歡的——AI會標註出每條答案背後的出處。 」短短幾分鐘的演示贏得滿堂喝彩。NotebookLM就此進入公眾視野,並在隨後數月向廣大使用者開放試用,上線不久便廣獲好評。Google很快為其加入了支援音訊、視訊內容的分析功能,讓這款AI筆記助手更趨完善。NotebookLM的成功不僅證明了Woodward識人用人的獨到,也驗證了他推動內部「減小阻力」所取得的成效。在官僚體系龐大的Google公司,許多創新想法往往困於流程冗長、部門掣肘。為此,Woodward在Google Labs內部設立了一個特別機制,員工如果遇到體制上的「絆腳石」可以提交一個代號為「Block」的工單,由專門團隊迅速協調資源排障。NotebookLM項目在籌備上線時一度面臨算力不足的問題,Woodward 便通過這一機制火速調撥了更多TPU算力支援,確保產品性能萬無一失。據團隊工程師回憶,有了「Block」系統的保駕護航,他們再也不用為內部審批耗費精力,可以心無旁騖地專注於產品研發。「有這樣一位負責人幫我們清理那些惱人的障礙,我們才能真正將精力放在使用者身上。」Google Labs 的一名軟體工程師 Usama 感嘆道。小細節,大作為Woodward 領導風格中另一個令人稱道的特點,是他對「細節決定成敗」的高度重視。擔任 Gemini 和 Google Labs 負責人後,他發起了一項名為「Papercuts」(紙割傷)的內部計畫,專門蒐集和快速修復那些雖然不至於致命、但影響使用者體驗的「小傷口」。在 Woodward 看來,這些細枝末節的改進往往最能打動使用者,卻常被大公司忽視。有使用者抱怨在 Gemini 聊天時無法中途切換大模型而不重新開始對話,Woodward 知道後立刻催促工程師最佳化。不久他就在自己的 X 帳號上驕傲地宣佈:「Papercut 已修復:現在你可以在 Gemini 應用的對話中途切換模型而無需重新啟動會話了。」這條動態下面,許多使用者紛紛留言點贊,感謝他傾聽並解決了困擾自己的「小問題」。事實上,親自聆聽使用者聲音、持續打磨產品細節,幾乎已經成為 Woodward 工作的日常。身為公司高管,他卻常常一頭紮進社交媒體的一線陣地,在 X 和 Reddit 上直接回答使用者提問、收集吐槽反饋。業界人士形容這在科技巨頭中相當少見——一位負責核心產品的副總裁竟然親自在論壇上當「客服」,甚至把使用者直言不諱的批評意見轉發給開發團隊要求改進。但在 Woodward 看來,這正是產品經理應有的擔當:「使用者願意花時間告訴我們問題出在那兒,那就是在幫我們變得更好。」NotebookLM 團隊一名前設計師 Jason 回憶,Woodward 經常帶著從使用者社區蒐集的反饋走進會議室,對大家說「看看,這是使用者真正關心的,我們能做點什麼?」Jason 由衷佩服地說:「這種對終端使用者的承諾和執著,我在其他領導身上幾乎沒見過。」Woodward 平易近人的人格魅力也在這些「小事」中展露無遺。同事們常提起他的一個招牌舉動:當有團隊成員因為線上評論的批評而情緒低落時,Woodward 會故作誇張地哈哈一笑,用他那帶著中西部口音的爽朗笑聲打趣道:「走,一起回覆網友去!」據說,沒有人能抗拒他這富有感染力的笑聲——緊張的氣氛瞬間就被他化解了。前同事 Caesar Sengupta 曾打趣地評價:「我從沒見他對誰發過火。」這位與 Woodward 共事多年的Google前高管甚至半開玩笑地放言:「照這樣下去,他早晚會成為Google的 CEO。」雖然只是戲言,但也從側面反映出 Woodward 在Google內部的威望和人望之高。從奧克拉荷馬小鎮少年 到Google中流砥柱在成為Google AI 戰略幕後英雄之前,Josh Woodward 的人生軌跡並非典型的「矽谷精英」路線。他 1983 年出生於美國奧克拉荷馬州一個普通家庭,自幼成長於埃德蒙德(Edmond)小鎮。從小勤奮好學的 Woodward 考入了家鄉的俄克拉荷馬大學主修經濟學,2006 年以優異成績畢業,並被評為年度傑出畢業生之一。大學期間,他對公共事務和全球視野表現出濃厚興趣,積極參加各類學生領導力項目。畢業後,他獲得獎學金遠赴英國牛津大學深造,攻讀比較政府學,並於 2009 年拿下碩士學位。在牛津,他把研究重點放在美國軍事及經濟援助對外國民主處理程序的影響上——這一少有人問津的題目透露出他對「科技與社會」「力量與責任」等宏大命題的早期思考。也許正因如此,當他回到美國踏入科技行業時,能始終從更長遠的角度審視手中的技術。2009 年,Woodward 以產品管理實習生的身份加入Google,很快顯露出過人的敏銳和領導才能。他樂於接受具有挑戰性的任務,勇於從零開始打造新項目。在Google工作最初十年裡,他涉足多個前沿領域,從硬體裝置到新興市場,無不留下自己的印記:他參與了 Chrome 作業系統和首批 Chromebook 筆記本的開發;自告奮勇加入公司新成立的「NBU」計畫,去研究和服務印度等地第一次觸網的海量使用者,並因此被視為NBU項目的奠基人之一;後來又接手 Google Pay 的國際化拓展業務,為數億使用者帶去便捷的移動支付體驗。這些橫跨軟硬體、全球市場的經歷,讓 Woodward 對「如何讓技術普惠大眾」有了深刻理解。這種理念也貫穿在他之後負責的AI產品中——無論是 NotebookLM 還是 Gemini,他始終強調的是為使用者創造真正有用的價值,而不僅是炫技式的噱頭。Woodward 還有一個鮮明的個人標籤:酷愛閱讀且樂於分享。熟悉他的人都知道,他的辦公室和家中總是堆滿書籍,從商業傳記到科幻小說無所不讀。據說Google高管層每每想找本好書讀時,第一個諮詢的對象就是 Woodward。他至今堅持寫閱讀筆記,早年在 NBU 團隊時便每周編輯一封內部通訊,內容簡潔而發人深省,當時這封通訊在Google內部意外走紅,許多人聞訊後紛紛來信請求訂閱。如今儘管工作繁忙,他仍保持著每季度給團隊和朋友們寫一封「Josh 通訊」的習慣,分享自己近期讀到的有趣見解。身邊同事戲稱他是Google的「行走書單」。更難能可貴的是,Woodward 不僅博覽群書,還善於將知識活用於工作決策中。據前文提到的 Raiza 回憶,在 NotebookLM 項目開發過程中,Woodward 曾特地發給她一篇論文,探討使用者究竟能否信任AI聊天機器人的答案。這讓 Raiza 意識到,領導關心的不僅是產品功能實現,更是產品能否真正贏得使用者信任。類似的故事不勝列舉——他會建議團隊工程師閱讀科幻小說,從中獲得對未來技術的想像力;也會邀請人文學者來交流,提醒大家科技創新不能脫離人文關懷。這些細節都體現出 Woodward 作為領導者的深度與溫度。變革時代的掌舵者2025 年行將結束之際,Google憑藉在AI領域的一連串突破重新煥發了生機:從 Gemini 3 模型的橫空出世,到一個又一個「現象級」應用的推出,整個公司一掃年初的低迷,士氣高漲。CEO 桑達爾·皮查伊(Sundar Pichai)在全員大會上興奮地表示:「過去這一年的進展真是令人難以置信——Google各個團隊都在以前所未有的速度推出新功能。」而站在這股 AI 浪潮中央、備受矚目的,正是 Josh Woodward 和他所率領的團隊。展望 2026 年,業界對Google寄予厚望,期待這家科技巨頭繼續以 Responsible AI(負責任的人工智慧)的姿態領跑。在聚光燈之外,Woodward 依然埋頭忙碌著:既要帶領兩個部門創新競速,又要謹慎把關每一項技術的潛在影響。然而,這位久經考驗的「Google AI 掌櫃」臉上沒有焦慮,有的只是對未來的堅定信心和一絲藏不住的興奮。在最近的一次採訪中,當被問及如此高壓的工作如何堅持時,他爽朗一笑:「因為從未像現在這樣好玩啊!」對於熱愛挑戰的他來說,這或許正是真正的樂趣所在——身處巨變浪潮之巔,以初心為舵,划槳向前,讓技術的光芒照亮而非灼傷這個世界。 (新智元)
Lovart + Nano Banana Pro,這才是PPT 的王炸組合!
你是不是跟我一樣,最近為了找個好用的AI PPT 工具,快把市面上的產品試了個遍?一會刷到某個智能體,一會兒又是Gamma。前陣子很多人被NotebookLM 刷屏,我也跟著去湊了熱鬧。但講真,用下來總覺得差點意思。直到這兩天我試了這個工具,我敢說:真正的AI PPT 終結者可能真的出現了!廢話少說,直接看效果。這是我用它為《小王子》做的一份分享PPT:圖:Lovart 產生的PPT說實話,第一眼看到成品時我有點被驚豔到了。這種繪本感的視覺享受,無論是給老闆匯報還是做個人分享,拿出手的一瞬間,段位就拉開了,對吧?在PPT 這個塊,我一直有個「歪理」:視覺美感往往大於內容。因為如果第一眼抓不住人,內容再好也是白搭。這就是Lovart,它最硬核的地方:它不僅請來了Nano Banana Pro 這種等級的超強外援,還反手給它疊滿了'超級武器'的Buff。01|視覺美感:拒絕“AI 抽卡”,審美直接拉滿以前用AI 做PPT 像是在“抽卡”,出的圖能不能用全看運氣。但Lovart 輸出的畫面非常專業。就算你只是給個簡單的提示詞,它給出的視覺方案也完全在審美點上。例如我試過的第一種:國家地理史詩攝影。圖:Lovart 產生的國家地理史詩攝影風PPT說實話,出來的成品真的讓人歎為觀止,感覺每一頁都是一幀高品質的電影畫面,那種大片的厚重感和細膩質感,每一張圖都能直接拿來當壁紙。如果你想走年輕活潑的路線,可以試試下面這種孟菲斯多巴胺風格。圖:孟菲斯多巴胺風格PPT撞色大膽,充滿躍動感,這種視覺衝擊力極強的風格,相信會受到很多年輕人的喜歡,拿去做創意提案瞬間就能抓住眼球。當然,還有我們最親切的中國風。圖:中國風PPT這種水墨感一出來,高級感直接拉滿。它最牛的地方在於不只是堆砌素材,連文案都會跟著風格變,裡面甚至藏著「道法自然」、「安土重遷」這種哲學意境。是真的有靈魂。當然,不只是好看,這些內容的總結、提煉也都是由它自己完成的,可以說非常強大。看到這兒你可能會說:“這不都是Nano Banana Pro 的功勞嗎?Lovart 自己到底有啥亮眼的?”說實話,剛開始我也這麼想。但深度體驗之後,我發現自己錯了。正是因為下面這幾個「殺手鐧」等級的優勢,才讓我覺得它——而不是現在大火的NotebookLM——才是真正的AI PPT 終結者。02|40頁+長篇幅:終於不用再手動「續命」了很多朋友吹爆NotebookLM,它確實很牛,但有個致命傷:生成的PPT 不能超過15 頁。這對咱們打工人來說太難受了,一個稍微大點的匯報,15 頁那夠寫?Lovart 就大方多了,生成40 頁以上都完全沒有壓力。圖:Lovart 產生的30 頁PPT例如為這本書《智人之上》產生一個30 頁的讀書分享PPT,也就幾分鐘的事兒。所以說,對於咱們這種動輒要做幾十頁深度報告的人來說,Lovart 這種「量大管飽」的屬性真的太解壓了。再也不用為了湊頁數分好幾次折騰,這種一氣呵成的感覺,才是大項目該有的效率。03|全程可編輯:它是「活」的,不是死圖!這可能是我最想給Lovart 點讚的地方。NotebookLM 另一個讓我頭大的點是:產生的PPT 是「死」的,基本上就是一張張大圖。我真的因為它產生的一份PPT 文字有瑕疵,在PS 裡面摳了4 個小時。而Lovart 的所有元素都是可編輯的。文字寫得不滿意?直接改。佈局覺得擠?拖動一下。圖:Lovart 方便的修改文字和佈局它最神奇的是這個Touch Edit 功能。例如我覺得畫面裡的這張圖不錯,但想給人物換個圍巾顏色:圖:Lovart 的Touch Edit 功能這種指那改那的編輯,非常有效率,也非常完美:圖:透過TouchEdit 修改了圍巾顏色他甚至能換單頁的風格:圖:在Lovart 中修改單頁PPT 的風格一個簡單的提示詞:改成線稿風格,一頁PPT 就完美的改好了:圖:通過Lovart 風格修改前後的對比這種“掌控感”,才是AI 工具該有的樣子。關於這些高級玩法,我之前的文章裡有詳細教學,感興趣可以翻翻。04| 到底怎麼用?在Lovart 裡做PPT 簡單到什麼程度?頭腦空空時: 告訴它一個想法,它會自己聯網搜尋,幫你把邏輯和大綱都寫好。圖:僅透過提示詞來產生一份PPT材料一大堆時: 直接扔進一堆配件(支援多個PDF檔案哦),它能瞬間消化並吐出一份精美的PPT。圖:Lovart 根據附件來產生PPT我們在提示詞裡面可以簡單到一句話,也可以具體到規定頁數、風格、每一頁的內容。比如下面這樣:請基於《人類簡史》製作15頁的'新中式'意境風格PPT。 視覺風格: 東方禪意美學。採用水墨質感、宣紙背景紋理。色彩以黛青、硃砂紅、墨黑為主。裝飾元素使用留白、印章、遠山、雲紋。標題使用書法體,正文使用宋體。 內容大綱: > 用中國哲學的視角重新解讀:P1: 封頁(水墨意境);P2: 簡史總覽;P3-P5: 認知篇(道法自然與虛構世界);P6-P8: 耕織篇(農業的羈絆);P10-P12: 大同紀元(天下 3:P4);歸宿:天人之際的思考。 要求: 文案風格帶有一點詞章氣息,優雅而深邃。出來的效果,真的會讓你覺得它是有「靈魂」的。One More Thing:拯救「丑PPT」的終極殺手鐧最後,必須分享一個大驚喜:Lovart 還能直接修改現有PPT 的風格!很多時候我們手上已經有一份內容改了80 遍的匯報稿,但排版實在太「班」了,沒法拿去見大老闆。這個時候,你只需要把這份PPT(PDF 格式)丟給Lovart,然後告訴它:“幫我把這份策劃案改成賈伯斯最愛的Apple Keynote 風格。”圖:現有的「丑」PPT瞬間!那種土裡土氣的PPT 就變身成了高級感十足的發佈會現場。圖:Lovart 一句話改之後的PPT這個功能,真的能幫大家在年底匯報裡省下大把的掉髮時間。最後的話說實話,AI 工具層出不窮,但我一直在找那種「懂人心、有審美、不給使用者添麻煩」的產品。Lovart 這種強大的Agent 邏輯+ Nano Banana Pro宇宙級的生圖能力+ 極高的編輯自由度,目前看來,確實是AI PPT 圈子裡的最佳解決方案了。眼看就到年底了,復盤會、年度計畫、總結匯報都在路上了吧?別再為調格式、找素材這種瑣事熬到凌晨了。還猶豫啥?這種「降維打擊」的神器,趁現在知道的人還不多,趕緊去試試,驚豔一下你的同事們:👉 http://lovart.ai (建議收藏備用)對了,說到AI 生圖,這兩天OpenAI 的GPT Image 1.5也已經上線到Lovart 了。 (AI範兒)
GPT Image 1.5 全面實測:被 Nano Banana Pro 吊打!
就在今天,OpenAI 終於把它的 GPT Image 1.5 抬上來了!說實話,在 Nano Banana Pro(以下簡稱 NBP)已經強到“殺瘋了”的今天,我甚至是帶著一種“挑刺”的心態點開更新的:OpenAI,你這次到底能不能行?是能一舉奪回王座,還是像上次一樣“發佈會猛如虎,實測二百五”?話不多說,我肝了一個通宵,直接上號,殘酷實測走起。精準修圖,誰更聽話?大家玩 AI 繪圖最頭疼的是什麼?肯定是“一改就廢”。明明只想給小姐姐換個髮型,結果圖一出來,臉都給換了,這誰受得了?OpenAI 的宣傳片倒是吹得很神:指那打那,完美保留角色形象。但這畢竟是“買家秀”,實際上手效果如何?為了不冤枉它,我特地隨機選了一個路人人物做測試。圖:測試用素材圖先來個最簡單的:換髮型提示詞:基於這張圖片,將人物的髮型改為齊肩的紅棕色波波頭(Bob頭)。請務必保留頭髮被風吹起的動態效果和陽光照射在頭髮上的強烈高光。人物的面部表情、衣服、姿勢和背景需完全保持不變。GPT 跑出來的第一張圖,乍一看還真不錯:人物沒變,衣服沒變,髮型也確實換成了波波頭,看著挺自然。但俗話說得好,不怕不識貨,就怕貨比貨。我們拉出隔壁的 NBP 來跑同樣的詞:圖:對比圖坦率講,把兩張圖放在我的 4K 大屏上一對比,差距瞬間就出來了:GPT 這邊: 臉部光影明顯偏暗,甚至出現了肉眼可見的色斑(這是什麼鬼?),皮膚質感有點髒。NBP 這邊: 皮膚通透,頭髮上的高光處理得非常細膩,明顯贏麻了。第一局結論: 雖然 GPT 聽懂了指令,但在畫質和光影細節上,NBP 依然略勝一籌。多圖一致性,二哈能拆家嗎?再來試個更有難度的:換裝 + 多圖融合。提示詞:將人物身上的藍色條紋襯衫取代為一件米白色的亞麻質地休閒西裝外套,內搭一件白色圓領T恤。保持她倚靠欄杆的姿勢不變。新的衣物上需要有符合當前強烈側光照明的自然褶皺和陰影。人物頭部和背景保持不變。我試著給人物換了套衣服,GPT 的表現依然穩定,形象保持得很好。但在光影邏輯上,還是老毛病——有點“平”。不過這裡 NBP把原圖的道具給搞丟了……接著,我開始給它上點難度了:多圖融合。我找了兩張女生圖和一張動物圖,要求它們融合在一起。圖:多圖融合示例圖:多圖融合對比不得不承認,這個環節我更喜歡 GPT。它的融合能力簡直驚豔,整張圖片的質感非常像一張真實的電影劇照,那種“無聊和疲憊”的氛圍感拿捏得死死的。而 NBP 這邊……怎麼說呢?它的背景單一了點,但實際上它更好的遵循了提示詞,沙發凌亂,連狗都是疲憊的。現在,加入調皮的二哈試試。提示詞:保持這兩位女士和動物的姿勢、表情完全不變。在背景中加入幾隻正在瘋狂拆家的哈士奇,它們正在撕咬沙發靠墊和跑來跑去,讓場面看起來極其混亂。這個部分我更喜歡 NBP了,GPT 加入的二哈過於瘋狂,感覺有點失真。但他們在多輪編輯中,都很好的延續了之前的形象和風格。既然融合能力不錯,那拿來做電影海報怎麼樣?我讓它設計一張 1950 年代好萊塢風格的電影海報,標題叫《THE ALGORITHM》(演算法)。效果直接驚豔到我了:圖:英文海報利用這三張圖片(兩張女生和一張動物),製作一張 1950 年代好萊塢黃金時期的電影海報。電影標題: 海報上方用復古的大寫襯線體展示電影名為 "THE ALGORITHM" (演算法)。角色設定: 將兩位女生設計為經典的黑色電影(Film Noir)女主角,穿著優雅的絲綢晚禮服,波浪捲發。將那隻動物設計為她們神秘的同伴,脖子上戴著鑽石項圈。演職員表: 在底部加入演職員文字:Starring: The Neural Sisters (左) & The Beast (右)Directed by: Sam AltmanProduced by: OpenAI Studios風格: 手繪海報質感,強烈的明暗對比(Chiaroscuro),略帶褪色的特藝彩色(Technicolor)色調。不得不說,這海報挺有感覺的,但似乎人物形像已經對不上了。而且,這個尺度怎麼突然提升了。用中文發現,不僅尺度小了,字幾乎是災難。。(這個後面具體講)圖:GPT 的中文海報變態指令遵循,誰腦子更好使?GPT Image 1.5 有很強的指令遵循能力。來給它一點難度:6x6 網格挑戰。這非常考驗 AI 的邏輯理解能力。我要求它嚴格按照 6 行 6 列的格式,每一個格子裡畫出指定的東西(比如菠蘿、宇航員、Wi-Fi圖示等)。提示詞:畫一個 6x6 的網格 建立一個 6 列 x 6 行的網格,網格內容如下:第一排:希臘字母Ω、一個熱氣球、菠蘿、宇航員、水晶球、變色龍 第二排:一隻蜘蛛、老式懷錶、淋浴噴頭、望遠鏡、一隻孔雀、一張藏寶圖 第三行:一枚紀念幣、一面圓鏡子、一杯冒熱氣的咖啡、“希望”一詞、滑板、字母K 第四排:洗衣機、遊樂園代幣、Wi-Fi圖示、一支口紅、螳螂、棒球帽 第五行:電源圖示、數字8、紅色鑽石、樂高積木人、火烈鳥、維京頭盔 第6行:一隻橘貓、滅火器、一個錨、遊戲手把、捲紙、數字88除了中文,它做得的確完美。看看 NBP,雖然中文對了。但這那裡是 6x6 宮格?數學是體育老師教的嗎?格局完全亂了。圖:NBP 生成的 6 宮格這一局:GPT 險勝,贏在邏輯,輸在中文。真正的硬傷是文字大家都知道,NBP 幾乎徹底的解決了文字難題,不論中英文。OpenAI 也不甘示弱,給了一個非常複雜的多字的案例,但其實 NBP 設定完整得更好。圖:文書處理對比而換成中文,GPT 就是個災難,不過這點官方自己是承認的。圖:GPT Image 1.5 的中文處理換成 NBP,那幾乎是吊打。圖:NBP 的中文處理即便是簡單點的中文,GPT 也無法勝任。圖:GPT Image 1.5 的中文處理NBP 幾乎完美。圖:NBP 的中文處理NBP 讓資訊圖流行了起來,OpenAI 也提供了類似案例。但不論從效果還是從文書處理,GPT 都是被按在地上摩擦的。圖:資訊圖對比除了升級了圖片功能之外,OpenAI 還新增了一個類似於“範本”的功能,選擇某個範本,然後再選一張自己的圖片,就可以生成這個範本對應的風格。圖:GPT 提供範本選擇通過固定一些常用的風格,很方便那些不想到處找提示詞或者不會寫提示詞的朋友。最終結論:這就是一場單方面的“碾壓”測到這,我不裝了,直接攤牌:GPT Image 1.5 目前全面落後於 Nano Banana Pro。雖然在剛才的某些特定 Case 裡(比如那個瘋狂的二哈),GPT 偶爾能靈光一閃,但這阻擋不了它整體被 NBP 甩在身後的事實。為什麼這麼說?除了前面看到的這些,NBP 還有很多讓創作者無法拒絕的“殺手鐧”,比如:畫質硬傷: NBP 早就支援 2K、4K 直出了,而 GPT Image 1.5 居然還在 1K 解析度裡玩泥巴。這對於要幹活的人來說,簡直是致命傷。資訊差優勢: NBP 可以結合聯網搜尋,直接生成帶即時資料的資訊圖,這點 GPT 目前完全做不到。至於大家關心的速度……官方發佈會吹噓說“速度快了 4 倍”。我實測跑了一個通宵,說實話,完全沒感覺到。體感上甚至比 NBP 還要慢一點。OpenAI 這波“畫餅”,我給負分。當然,它也不是一無是處。它唯一讓我覺得“真香”的功能,是多工並行——前一張圖還在轉圈圈,我可以立馬發下一條指令,不用乾等著。這一點,NBP 確實該學學(NBP 目前只能單線程排隊)。現在的 GPT Image 1.5 給我的感覺,更像是一個氣喘吁吁跟在 NBP 屁股後面追趕的“優等生”,早已不是那個曾經引領時代的“神”了。(其實 GPT 5.2 追趕 Gemini 3 Pro 也類似)所以,我的建議很直接:如果你是普通玩家: 想嘗鮮,可以玩玩。如果你要幹活、出圖、接商單: 請老老實實續費 Nano Banana Pro,它依然是目前的最佳選擇。OpenAI 這一波?還得回爐再練練。 (AI范兒)
太魔幻了!剛剛OpenAI發佈GPT Image 1.5:Nano Banana Pro 王座不保
Sam Altman 反擊Google,OpenAI新旗艦圖像模型來了就在剛剛,OpenAI正式發佈了新版ChatGPT Images,由全新的旗艦圖像生成模型GPT Image 1.5驅動這一次,無論是從零開始生成圖像,還是編輯現有照片,新模型都能實現“所想即所得”核心升級主要體現在三個方面:精準修圖且保留細節、指令遵循能力更強,以及生成速度提升了4倍我立馬就測試了兩個手頭的case:ChatGPT Images vs Nano Banana Pro提示詞這是一張室內人像寫真風格的照片,整體偏向乾淨、柔和、略帶時尚感與親密氛圍,下面我從構圖、人物、服裝、姿態、光線與整體氣質幾個層面來忠實、細緻地描述:⸻一、整體構圖與環境•豎幅構圖,人物幾乎佔據畫面主體,視覺重心集中在人物的上半身與面部。•場景是一個簡約現代的室內空間,背景為大面積純白色牆面,乾淨、無雜物,刻意弱化環境存在感。•人物坐在一張黑色皮質沙發上,沙發表麵線條硬朗,與人物柔和的膚色形成對比。•沙發上鋪著一塊黑白相間的長毛絨毯,毛感明顯,增加了畫面的層次與觸感⸻二、人物外貌與面部特徵•人物為一位年輕女性,整體氣質偏清秀、柔和。•膚色白皙均勻,質感細膩,幾乎看不到明顯瑕疵。•臉型偏鵝蛋臉,下頜線柔和,沒有明顯棱角。•五官比例協調:•眼睛偏大,雙眼皮清晰,眼神平靜、直視鏡頭,帶有一點若有若無的疏離感。•鼻樑挺直但不誇張。•嘴唇偏小,唇色自然,表情克制,沒有明顯微笑。•整體妝容為清淡自然妝:•底妝輕薄•眼妝乾淨,沒有明顯煙燻或誇張色彩•唇妝偏裸色或淡粉色⸻三、髮型與髮質•長直髮,髮色為偏暖的深棕色。•中分髮型,分縫筆直,左右對稱。•頭髮順直、貼合,發尾自然垂落至腰部附近,整體顯得柔順、有光澤。•發量看起來較多,線條乾淨,沒有明顯卷度。⸻四、服裝細節•穿著一件白色蕾絲連衣裙:•無袖設計,露出肩部與手臂•V 領或淺領口,領口處有精細的蕾絲花紋•裙身貼合身體曲線,但並不誇張•裙襬長度偏短,停留在大腿中上部•面料為蕾絲+內襯結構,蕾絲紋理清晰,風格偏女性化、柔美。⸻五、姿態與肢體語言•人物以側坐姿坐在沙發上:•上半身微微前傾•一隻手自然搭在沙發或毛毯上•另一隻手輕放在腿部•雙腿彎曲收攏,姿態顯得放鬆而內斂。•整體肢體語言偏安靜、克制、略帶親密但不過分張揚。⸻六、光線與攝影風格•使用的是柔和的棚拍或自然補光:•光線均勻,沒有強烈陰影•面部和身體輪廓被柔化•色溫偏中性或微暖,突出膚色的細膩感。•背景虛化不明顯,但因背景簡潔,人物自然突出。•整體風格接近商業人像 / 時尚寫真 / AI 或高精修風格。⸻七、整體氣質總結這張照片給人的感覺是:•乾淨•精緻•柔和•帶一點冷靜與疏離•偏“被觀看”的人像美學,而非抓拍或紀實2k解析度這是生成的效果:第二個case:提示詞:{描述:一幅超逼真的 3D 等距視角傑作,描繪了一幅展開在光滑深色木桌上的魔法地圖。地圖繪製在一張古老而飽經風霜的羊皮紙捲軸上,但畫面中的景色以立體模型的形式躍然紙上。巍峨的岩石山脈,白雪皚皚的山峰,穿透縷縷白雲;一條蜿蜒的碧綠河流從中心流過;山麓覆蓋著茂密蔥鬱的松林。羊皮紙邊緣呈鋸齒狀,左側飾有精美的復古書法,角落則繪有羅盤玫瑰圖案。畫面採用溫暖的電影級光照,焦點清晰,紋理細節豐富,2K 解析度,以奇幻冒險為主題。"negative_prompt": "扁平的,2D 的,簡單的圖畫,模糊的,低品質的,扭曲的,有水印的,糟糕的人體結構,文字疊加,顆粒感強的",“參數”: {"aspect_ratio": "2:3","風格": "電影級 3D 渲染","檢視": "等距"  }}生成的效果:看起來ChatGPT Images指令遵循的要比NBR要強(人像),審美能力還不好說目前ChatGPT Images 在 大模型競技場圖像排名第一接下來幾天我會大量測試,看看實際表現與此同時,GPT Image 1.5 API也已同步上線,價格相比上一代直降20%下面我們一起來看ChatGPT Images具體細節精準修圖:指那打那,細節不丟新版模型最大的亮點在於對使用者意圖的精準還原當使用者要求對上傳的圖片進行編輯時,模型能夠更可靠地遵循指令,僅改變使用者要求的部分。而在這一過程中,原圖中光線、構圖以及人物外觀等關鍵要素,都能在輸入、輸出及後續的連續編輯中保持一致這就意味著,ChatGPT現在不僅能完成更實用的照片修飾,還能實現更逼真的服裝和髮型試穿。同時,它支援在保留原圖精髓的基礎上,進行風格化濾鏡和概念轉換具體到編輯操作上,模型擅長多種類型,包括:• 加入(Adding)• 刪減(Subtracting)• 組合(Combining)• 混合(Blending)• 移位(Transposing)簡而言之,使用者可以在得到想要的改變的同時,不丟失讓圖片顯得特別的那些原始細節。OpenAI稱其為“口袋裡的創意工作室”創意與能力的全面進化除了修圖,GPT Image 1.5在創意生成和基礎能力上也有顯著提升:創意變換:模型可以通過改變和加入元素(如文字和佈局)來實現創意轉化,同時保留重要細節,這個和Nano Banana Pro表現感覺差不多更強的指令遵循:相比初代版本,新模型能更可靠地執行指令。這不僅利於精準修圖,也能在生成複雜的原創構圖時,按預期保留元素間的關係文字渲染能力強悍升級:在處理更密集、更小的文字時,模型表現強悍畫質提升:在渲染許多小人臉以及整體輸出的自然度等方面,質量均有改進全新互動:無需提示詞也能玩為了讓圖像探索更快捷,OpenAI在ChatGPT中推出了專門的Images首頁使用者可以通過移動應用的側邊欄或chatgpt.com訪問該頁面。這裡不再強制要求使用者編寫提示詞,而是內建了數十種預設的濾鏡和提示,幫助使用者快速啟動靈感這些預設內容會定期更新,以反映當下的流行趨勢API上線:更便宜,更適合企業對於開發者和企業使用者,GPT Image 1.5 API也已同步開放。相比GPT Image 1,新版API在圖像輸入和輸出的價格上便宜了20%,這意味著在相同預算下可以進行更多的生成和迭代。在能力上,API版本繼承了ChatGPT Images的所有改進,特別是在圖像一致性方面表現更強:能夠跨編輯保持品牌Logo和關鍵視覺元素的一致性非常適合行銷材料製作(如圖形和Logo創作)適用於電商團隊,可基於單一源圖像生成完整的產品目錄(包括不同變體、場景和角度)目前,已有創意工具、電商、行銷軟體等領域的企業開始使用GPT Image 1.5。最後ChatGPT Images的新版本即日起向全球所有ChatGPT使用者和API使用者推送。該功能跨模型工作,使用者在使用時無需進行額外選擇至於今年早些時候推出的舊版ChatGPT Images,將作為一個自訂GPT(Custom GPT)保留,供有需要的使用者繼續使用 (AI寒武紀)
Google 眼鏡重新發佈! Nano Banana 首次上頭,聯手中國廠商殺瘋了
2012 年,Google 推出了「Project Glass」智能眼鏡原型機,可以錄影,支援語音互動,鏡片上一吋不到的 LED 螢幕還能顯示一些應用的介面,完全如同科幻電影走進現實。最終,這款超前的裝置由於隱私爭議和技術限制等原因,只度過了短暫的一生,但也讓世人瞥見了一種全新的智能裝置形態。13 年後的 2025 年,智能眼鏡成為新興的硬體浪潮,Google 作為這個品類曾經的先行者,帶著 Android XR 和 Gemini 又殺了回來。剛剛的 Android Show 活動只有半個小時,內容卻乾貨滿滿,Google 正式披露了他們眼中四種 XR 裝置路線:XR 頭顯裝置有線 XR 眼鏡無線 XR 眼鏡AI 眼鏡Android XR:把蛋糕做大Android XR 這個系統於去年年底首次正式公佈,顧名思義就是一個為 XR 裝置開發的 Android 系統。Google 強調,為 Android 開發,就是在為 Android XR 開發,後者可以直接相容使用 Google PlayStore 上的大部分手機和平板應用。跟手機上的 Android 一致,Android XR 為行業裡的廠商,提供了一個相當完善的系統和生態平台,能直接利用現成的 Android 應用生態,呼叫 Google 服務和 Gemini AI;而專門開發 XR 應用的開發者,也得到了一個分發應用的平台。對於新型的 XR 初創公司,Android XR 就是他們等待已久的平台,XREAL CEO 徐馳告訴 The Verge:目前世界上只有兩家公司能夠真正建構起一個生態系統:蘋果和 Google 。蘋果不會與其他公司合作,Google 是我們唯一的選擇。The Verge 提前體驗了一款 Android XR 原型機,當編輯使用 Uber 打車時,眼鏡的螢幕彈出一個 Uber 的小部件,顯示預計接客時間、車牌號等資訊,以及前往上車點的地圖路線指引,這些功能都直接來自 Uber 原本的 Android 應用。Android XR 的號召力比 Meta Horizon 平台更強,也比蘋果更開放,這意味著未來將有更多第三方廠商開發 Android XR 裝置,蛋糕越做越大,XR 應用和內容的生產者更願意加入生態。我們最熟悉的 Android XR 裝置,自然是十月底發佈的三星 Galaxy XR 頭顯,愛范兒此前已經進行過詳細報導,這次活動中 Google 也推出了三個更新:PC 連接,懸浮查看 Windows 窗口Likeness 功能,建立一個自己的數字分身自動空間化功能,能夠將一些傳統 2D 內容轉化成沉浸式的 3D 內容。這次 Android XR 的重頭戲,當然是三款不一樣的眼鏡。Project Aura:小巧如眼鏡,強大如頭顯在今年 5 月的 I/O 大會上,Google 首次公佈了與國內 AR 眼鏡廠商 XREAL 合作的 Project Aura 產品,今天的活動則帶來了更多體驗和使用上的細節。Project Aura 是一款「有線 XR 眼鏡」,這款裝置的理念很簡單,就是以眼鏡這種輕巧方便的形式,實現類似頭顯的雙目 XR 效果,適合出門使用。當然,比起傳統的眼鏡,Aura 要更大更重,硬體形態與 XREAL 其他產品很類似: 一個 AR 投屏眼鏡,以有線的形式連接一個 Android XR 計算終端——終端還能充當一個觸控板。不同的是,Aura 支援和頭顯一樣的手勢互動,並帶有透視效果,使用者能夠看到周圍環境,應用介面投射其上。Google 選擇 XREAL 這家初創公司的原因,大機率是看中了 XREAL 做 AR 眼鏡硬體的強大實力:Aura 實現了 70° FOV,為消費級 AR 的最大實用視場,能夠讓 Gemini 助手更好地與真實世界進行互動,也能獲得沉浸式的觀影體驗;性能方面則採用了 Galaxy XR 同款高通驍龍 XR2 Plus Gen 2 晶片組。得益於 Android XR 系統,Aura 能夠直接使用那些專門為 Galaxy XR 頭顯裝置開發的 XR 應用,只要有對應的 SDK,應用的功能和體驗就能自動調整到適合 XR 眼鏡的狀態。比起又大又重的頭顯,Project Aura 更適合「PC 連接」功能,使用者在工作時可以將 Aura 當成一個外接大屏, Windows 應用可以以大窗口形式在 Aura 中顯示,工作中不會的操作甚至可以讓 Gemini 教你。根據多家外媒,Project Aura 的使用體驗確實非常接近 Galaxy XR 頭顯,重量卻要輕上不少,不過考慮到小巧的體積和強大的性能,Aura 的發熱和續航將成為一個問題。不過,Project Aura 在這次活動上依舊未能正式推出,Google 承諾將於明年發佈。智能眼鏡,首先要讓人願意戴另外兩款眼鏡,則是完全無線的產品,更適合日常佩戴,因此也更需要強調時尚屬性,因此除了三星,Google 也宣佈了這類產品將與 Warby Parker 以及 Gentle Monster 兩個傳統眼鏡潮牌合作。第一款眼鏡,是類似 Ray-Ban Meta 的最基礎形態,我們稱之為「AI 眼鏡」不帶任何螢幕,使用者可以用眼鏡和 Gemini 溝通、拍照、聽歌。這種產品雖然不是真的「XR」眼鏡,卻是大眾接受度最高的品類。Google 更看重的是第二款,其實就是在第一款的基礎上增加單目 AR 螢幕,用來顯示一些簡單的卡片和元件,類似 Meta Ray-Ban Display,這也是今年 I/O 大會上進行過演示的品類。▲ 活動上出現的原型機操控這個 XR 眼鏡的方法有兩種,第一種就是利用眼鏡柄上的觸控板,第二種當然就是 Gemini 語音輸入了。Gemini Live 能夠基於當前看到的視覺環境上下文,以及使用者的自然語音控制,去完成多步驟、複雜的任務。這次演示的內容和 I/O 類似,同樣展現了智能眼鏡語音指令識別、識物、記憶、導航、即時翻譯等等能力。重點是,Google 單目 XR 眼鏡是一款「手機配件」,它大部分的運算都在手機,並且直接使用 Android 手機上的應用——作為對比,Meta 只能用自家幾個社交媒體應用。Aura 的介面簡潔乾淨,沒有應用列表,只提示最重要的資訊,來自手機 App 即時通知,給人感覺更像是智能手錶。▲ 圖源:Android Authority即使智能眼鏡正在井噴式發展,但未來的十年裡,人人兜裡依舊會有智慧型手機,Google 深知這個道理,於是他們的目標,只是想通過這種單目式的 XR 智能眼鏡,慢慢減少你掏出手機的次數。同樣是單目 XR 眼鏡,Google 的產品也比 Meta 要小巧很多。並且,Google 還告訴 The Verge,為了更多人使用眼鏡的多模態能力,明年 Android XR 眼鏡還會支援 iOS。當年導致 Google Glass 折戟的另一個導火索——隱私問題,Google 也專門進行了說明,這些 Android XR 眼鏡在錄製時都會發出明亮的脈衝光,並用紅綠光區分錄製和 Gemini 攝影機使用。和 Project Aura 一樣,這兩款 AI 眼鏡產品也將於明年推出,目前 Google 正在和三星、Warby Parker 以及 Gentle Monster 這些合作夥伴不斷調整產品。▲ 用語音讓 Gemini 拍攝、呼叫 Nano Banana 創作復活 Google Glass,Google 這次有備而來作為曾經領先過時代的先行者,面對這兩年智能眼鏡的浪潮,Google 的整個步調,卻走得比想像中慢不少,來得甚至比擅長「後發制人」的蘋果還要更晚。Android XR 於去年年底正式官宣,這期間,Google 找了不少廠商合作,有老搭檔三星高通,有新朋友 Xreal,還有跨界的夥伴 Warby Parker 和 Gentle Monster。▲ Android XR 由 Google、三星、高通合作開發目前這四種不同的產品形態,其實都有不同程度妥協,明顯都不是最終形態。實際上,Google 給 Android Authority「劇透」了一款沒有在活動上公開的新產品,實際演示效果給媒體留下深刻印象:無線雙目 XR 眼鏡,視野廣闊,畫面效果更好,目前公佈的四款產品身上的優點集其一。但 Google 表示,無線雙目 XR 眼鏡短期內不會對外銷售,最早也要等到 2027 年。很明顯,這款有點小彩蛋性質的神秘產品,才是 Google 心目中的「Google Glass」升級版,但他們並沒有選擇直接發佈這款產品,甚至沒有放到發佈會上談。Google 其實不必擔心會在這場新興硬體的激烈競爭中落後,他們已經吸收了 Google Glass 當年的教訓,手握 Android XR 和 Gemini 兩大王牌回歸。不僅是 Google Glass,即使對於現在的 XR 眼鏡,應用和內容生態不足,殺手級場景的缺乏,還是難以突破的困局。Android XR 不僅能利用現成的 App 生態,這個平台本身也能吸引大量的裝置廠商和開發者,大大降低了門檻,成長速度值得期待。更重要的是,作為目前最出色的 AI,Gemini 填補了殺手級 App 的空缺。借助智能眼鏡的攝影機、麥克風和 XR 螢幕,Gemini 強大的上下文理解與多模態能力得以充分發揮,創造出智慧型手機和其他硬體難以觸及、專屬於智能眼鏡的獨特場景。對 Google 來說,接下來就是按部就班把畫的餅一一填上的過程,比當年激進和實驗的 Google Glass 更有章法。接下來幾年我們都能看到這些產品逐步迭代,漸漸朝最理想的形態靠攏。遺憾的是,這次發佈會並沒有公佈這些新品的具體發售日期,它們究竟是不是一個良好的重新出發,還需要等產品實際問世,由時間驗證。但至少,不管是 Google 還是整個智能眼鏡行業,接下來都相當值得期待。 (APPSO)
Google和阿里,打破創新者窘境
半年前,市場對Google還普遍抱持著謹慎觀望、甚至略帶悲觀的態度。但此後Google接連發力:8月Nano Banana推出,9月反壟斷訴訟落地掃清障礙,11月Gemini 3發佈。疊加巴菲特建倉的利多消息,Google市值一舉突破3兆美元,儼然成為AI應用龍頭。無獨有偶,阿里今年也上演強勢翻盤戲碼:通義千問模型多模態能力領先,阿里雲AI業務增長顯著提速,千問App首周下載量破千萬,硬體端推出夸克AI眼鏡……這場從傳統電商平台到AI科技生態公司的戰略轉型,讓其股價從年初至今斬獲超90%的漲幅,終結了連續四年的低迷態勢。兩家公司雖然身處不同市場,但都走出了同樣的曲線:從巨頭慣性 → 路徑依賴 → 戰略重構 → 再度增長。兩家公司都呈現出一個極罕見的景象:創始人以再創業者的姿態,重新進入核心戰場。🇺🇸 布林回歸,讓Google重新擁有技術靈魂Google聯合創始人謝爾蓋·布林早已功成名就,本可安心享受退休生活。但面對ChatGPT的衝擊和Google內部的山頭林立,他選擇重返公司。這位對技術極其敏銳的聯合創始人,開始重新參與核心研發工作:出現在Gemini團隊的程式碼評審會議、參與模型訓練策略與技術路線討論、重金請回Transformer核心人才、解決DeepMind與Brain合併後的路線與文化摩擦、推動算力與頂尖人才向單一旗艦模型集中。Google過去最大的組織問題,是技術路線分散、部門協作成本高、創新鏈條被拖慢。布林的回歸,以創始人權威壓掉內耗與分歧,重建執行力。🇨🇳 阿里:蔡崇信與吳泳銘掛帥,重建速度與攻勢阿里巴巴的變革則更為激進和徹底。2023年9月阿里創始班底回歸,蔡崇信、吳泳銘分別出任阿里巴巴集團董事會主席和CEO,確立AI驅動的戰略重心。蔡崇信從資本和戰略層面,為阿里的AI轉型提供頂層設計。押注開源模型、聚焦雲+基礎設施。吳泳銘兼任淘天集團和阿里雲智能集團的CEO,以一人雙帥的高效模式,將電商和雲端運算兩大核心業務與AI戰略徹底打通,確保資源聚焦和效率最大化。資源層面,阿里做出重磅承諾:三年投入3800億元佈局 AI 與雲端運算。這是一個遠超常規的戰略訊號,將幾乎是未來三年的利潤全數押注AI,用真金白銀的成本向市場宣告轉型的堅定決心。Google與阿里的逆襲,都是戰略上All in AI,靠持續落地的技術產品與商業成果兌現承諾、重塑市場認知。但所有人都清楚,從知道到做到,中間橫亙著巨大的組織惰性、路徑依賴。職業經理人很難做出這樣的決策——受制於任期、考核和董事會壓力,他們往往選擇最佳化現有業務,偏好漸進式創新,而規避回報周期長、可能顛覆現有業務的顛覆性創新。AI作為公認的範式級革命,顛覆性遠勝以往。大公司破局的唯一解藥,是創始人意志的直接介入:憑藉創始人意志錨定方向,驅動資源的超常規配置和組織的超常規協同,破除創新者窘境。 (張大愚)
Nano Banana Pro 不會用?超詳細的Google官方教學來了
自從 Nano Banana Pro 發佈以來,感覺全網的 AI 玩家都在用它“整活”。我也和大家一樣,在網上看了各種教學,各種複製貼上提示詞。但試多了你會發現,這些非官方的攻略往往“知其然不知其所以然”,要麼太片面,要麼換個場景就失效了。這種“抽盲盒”的感覺太難受了。幸好,Google 發佈了一份官方指南,算是比較系統的進行了介紹。圖:Google官方發佈的 NBP 指南我把每一個功能都重新測試、驗證了一遍。並把(幾乎)所有的案例都重寫了,以更適合中國寶寶體質。這篇文章,就是我花了整整一晚上時間整理出來的“乾貨結晶”,希望能幫你把那些碎片化的知識,一次性串起來。01|那怕是一份財報,它也能做成藝術品以前做資訊圖表,那是設計師的噩夢。現在?只要你把一堆複雜的文字扔給 NBP,它能分分鐘給你整理得明明白白。直接看幾個例子。復古風格資訊圖表:我讓它把“港式茶餐廳歷史”做成圖,還要帶點 1980 年代的味道。提示詞:一張1980年代復古風格的資訊圖,主題是關於港式茶餐廳的歷史。請包含‘經典美食’、‘懷舊地磚’和‘霓虹招牌’三個獨立類股。確保所有文字清晰可讀,並使用符合那個年代審美的字型設計。財報秒變海報:打工人的周報救星來了。不用再畫 Excel,直接生成這種現代風圖表,老闆看了都得愣一下。提示詞:用中文生成一張乾淨、現代的資訊圖表,總結這份財報中的關鍵財務亮點。包含‘營收增長 ’和‘淨利潤’的圖表,並用風格化的引語框高亮顯示 CEO 的關鍵語錄。不要引用標籤,使用Google配色技術圖紙:如果你是搞工程或者建築設計的,以前畫這種正投影藍圖得在 CAD 裡啃半天。現在 NBP 能直接生成這種專業感拉滿的圖。提示詞:建立一個正投影藍圖 (orthographic blueprint),通過平面圖、立面圖和剖面圖來描述這座建築。用技術建築字型清晰標註‘北立面 (North Elevation)’和‘主入口 (Main Entrance)’。格式為 16:9。甚至是……手繪白板那怕是複雜的“移動支付原理”,它也能模仿大學教授在白板上畫的草圖,連馬克筆的筆觸都還原了。提示詞:見附件將‘中國移動支付生態系統運作原理’(如支付寶或微信支付)的概念總結成一張適合大學課堂講座的手繪白板示意圖。請使用不同顏色的馬克筆來區分‘使用者/商戶前端’和‘銀行/清算後台’類股,并包含清晰可讀的‘掃碼互動’和‘加密結算’標籤。對於這一類的圖,Google給的秘訣就三點:資訊濃縮: 別管是長文章還是 PDF,扔給它,告訴它“提煉重點”。風格設定: 想要“雜誌風”、“技術藍圖”還是“手繪白板”?一定要說清楚。指定內容: 比如財報,你只關心“賺了多少”,就命令它只畫利潤部分。02|終於!人物不再“換臉”了玩 AI 繪圖最大的痛點是什麼?人物一致性。上一張圖還是瓜子臉,下一張圖就變成了國字臉,根本沒法做連貫的故事。NBP 這次真的進化了。它支援最多 14 張參考圖!這就像是你把演員的定妝照直接拍在 AI 臉上,告訴它:“就這個人,鎖死,別動。”比如,我要給這個人物做一個爆款視訊封面:提示詞:見附件[上傳一張圖片]使用圖1中的人物設計一個爆款視訊封面面。部一致性:保持人物面部特徵與圖1完全一致,但將表情改為極其震驚和難以置信,張大嘴巴。動作:將人物安排在畫面右側,雙手抱頭,目光看向畫面左側。主題:在畫面左側,放置一台最新款國產旗艦手機的高畫質特寫圖像,螢幕亮起顯示跑分畫面。圖形元素:在手機周圍加入爆炸放射狀的效果線,並用一個巨大的紅色箭頭指向手機螢幕。文字:在畫面中央疊加巨大的、綜藝花字風格的文字:‘這性能逆天了?!’。使用粗大的白色描邊和強烈的黑色投影。背景:一個模糊的、充滿霓虹燈帶的電競房背景。高飽和度和高對比度。大家可以猜猜這個封面人物是誰?我感覺人物形象維持的挺好的。不只是人物,你可以拿一個 Logo 來設計一堆物料,而且保持這個 Logo在所有的地方都是一致的。這裡拿我的 Logo 來舉例。提示詞:[上傳logo 圖片]用這個 logo ,為一家名為“AI 范兒”的書店建立多種不同類型的品牌物料。NBP 還可以保持多個對象的一致性,最多到 5 個。這種群體的一致性保持,在做故事片的時候沒有還真不行。提示詞:[輸入 3 張不同毛絨生物的圖像] “創作一個包含 10 個部分的有趣故事,講述這 3 個毛絨夥伴去熱帶度假的經歷。故事全程驚險刺激,情感起伏跌宕,最後以幸福時刻結尾。保持所有 3 個角色的服裝和身份一致,但它們在所有 10 張圖片中的表情和角度應有所變化。確保每張圖片中每個角色只出現一次。03|它是聯網的!這一招很多人不知道。記得在提示詞裡加上一句 “結合 Google 搜尋”。NBP 和其他“兩耳不聞窗外事”的模型不一樣,它背後連著Google搜尋。這意味著它知道今天的股票行情,知道明天的天氣,甚至知道現在的熱點新聞。比如,我想去賞櫻花,但不知道那個時間點合適?提示詞:結合 Google 搜尋,根據當前的氣候預測和旅遊巨量資料趨勢,生成一張可視化資訊圖,展示2025年中國主要賞櫻勝地(如武漢大學、無錫黿頭渚)的最佳觀賞時間窗口。又比如,我想知道一下中國八大菜系的分佈。提示詞:結合Google搜尋,生成一張基於中國地圖的美食文化資訊圖,可視化展示‘中國八大菜系地理分佈’。請在地圖的相應區域清晰標註菜系流派(如在四川區域標‘川菜’、廣東區域標‘粵菜’),並為每個菜系類股附帶一個最具代表性的招牌菜手繪插圖。能隨時聯網查詢,真的是文生圖一個偉大的革新。04|“一句話修圖”,PS 可以解除安裝了這就屬於“甲方最愛”的功能了。“把背景裡的人去了。” “給這幅畫上個色。” “把白天改成晚上。”以前這些需求得改半天,現在就是一句話的事。移除路人提示詞:將這張照片背景中的所有遊客移除。使用符合故宮環境的古代青磚石板地面和紅牆建築基座紋理來邏輯地填充空缺區域,使整個廣場看起來完全空曠且真實。人物形象和姿勢保持不變給漫畫上色提示詞:給這幅漫畫上色場景本地化提示詞:把這個圖本土化為上海場景,包括將標語翻譯成中文。將背景改為夜晚繁忙的上海街頭。變化季節提示詞:將此場景轉變為冬季。保持房屋架構完全不變,但在屋頂和院子裡加入積雪,並將光照改為寒冷、陰沉的午後。05|2D 轉 3D,設計師狂喜這個功能簡直是降維打擊。把你畫的平面草圖扔進去,它能直接生成 3D 渲染圖;或者反過來,把 3D 模型變成平面結構圖。室內設計師、建築師,還有做表情包的朋友,這一塊必須玩起來。提示詞:基於上傳的2D平面戶型圖,生成一張單頁式的專業室內設計提案拼貼板。佈局上,頂部放置一張展示客餐廳區域的廣角透視主圖,重點呈現戶型圖中標誌性的圓形餐桌區和開放式廚房島台;底部並排展示三張小圖,分別為帶浴缸的主衛細節、書房視角以及該戶型的3D立體俯檢視。整體採用現代極簡風格,搭配溫暖的橡木地板和米白色牆面,確保所有圖像的光影自然柔和,達到照片級渲染畫質。提示詞:見附件將這張‘肌肉佩佩炒股’迷因圖轉化為一張逼真的3D渲染圖。保持構圖與原作完全一致,但將肌肉佩佩塑造成一個具有高度真實生物感、皮膚濕潤且肌肉紋理清晰的青蛙形象;同時,將筆記型電腦的螢幕渲染為真實的自發光液晶螢幕,並將桌上的四根蠟燭渲染為帶有真實蠟淚紋理和搖曳火焰的效果,在木桌上投射出溫暖、現實的光影。06|細節狂魔?請開高畫質模式如果你是做列印、出版,或者像我一樣是“數毛黨”,NBP 原生支援的 1K、2K 甚至 4K 輸出就很關鍵了。如果是用 Gemini 這類對話方塊,記得帶上 “高畫質”、“HD”、“4K” 這種關鍵詞,並且可以多描述一些材質細節,比如“皮革的紋理”、“金屬的劃痕”。提示詞:利用原生高保真輸出,打造一個令人驚嘆的、充滿氛圍感的雨中江南古剎屋簷特寫環境。指揮複雜的濕潤光影效果和細膩的陳舊材質紋理,確保每一滴雨水在老化木樑上的反光、以及瓦片縫隙中青苔的每一絲細節,都以適合4K壁紙的像素級完美解析度呈現。除了這種紋理的要求,還支援這種複雜的邏輯。提示詞:建立一張超現實的廣式雙黃月餅資訊圖表,將其切開或立體解構以展示金黃油潤的回油餅皮、細膩緻密的紅蓮蓉內餡以及中心質感沙軟且流著紅油的鹹蛋黃。請在圖表中詳細標註每一層獨特的口感層次和風味來源。07|它不僅會畫畫,還會做奧數題別忘了,NBP 結合了 Gemini 3 Pro 的大腦。它在畫圖前,是會“思考”的。 這意味著它可以處理邏輯問題。比如,讓它解一道複數域的數學題,還要寫出步驟:(來自官方案例)提示詞:在白板上求解 $log_{x^2+1}(x^4-1)=2$ 在複數域 C 中的解。清晰地展示步驟。或者,給它看一張精裝修的客廳,讓它反推出裝修前的“毛坯房”長什麼樣:提示詞:分析這張精裝修後的現代溫馨客廳照片,生成一張它在裝修前的‘毛坯房’狀態圖片。請展示裸露的水泥牆壁、地面上複雜的走線管道以及粗糙的混凝土質感,還原施工初期的真實場景。08|電影導演視角的“分鏡圖”想畫漫畫或者電影分鏡?不需要一張張生成。你可以要求它在一張圖裡畫出多個連續的情節。比如這個故事:一對身著新中式服飾的男女主角,演繹從都市喧囂回歸山林寧靜的高端茶品牌廣告電影級敘事畫面。提示詞:見附件構思一個引人入勝的9段式視覺故事,通過9張圖像呈現,主題是一對男女主角出演的一支獲獎級高端中國茶品牌文化廣告。故事線需要包含情感的起伏與轉折(例如:從都市的浮躁迷茫到回歸山林茶園的寧靜頓悟),並以一個女主角手持茶杯與品牌Logo同框的優雅定格鏡頭作為結局。請確保男女主角的面部特徵和服裝造型(如新中式風格服飾)在整個系列中保持嚴格一致,但需要通過豐富的攝影角度和景別變化(如航拍大景、中景互動、特寫細節)來展現。請務必逐一生成這九張圖像,並確保每張都採用16:9橫向畫幅。實際上,在 Gemini 裡面也支援一次生成多張圖片。09|像控制傀儡一樣控制構圖最後這個是大招。 除了用圖片控制人物長相,你還可以用圖片控制“結構”和“佈局”。你隨手畫個草圖(那怕很醜),或者給它一個指定的網格佈局,它就能乖乖把畫面填進去。提示詞:[上傳一張手繪圖]基於這個手繪線框圖結構,創作一個高保真的‘新中式國潮茶飲’手機UI介面設計。整體風格採用優雅的汝窯天青色與米色調,融入水墨紋理背景。頂部的‘標題列’顯示‘茶韻東方’Logo;中間三個‘主展示圖’分別放置茉莉花茶、烏龍奶茶和桂花酒釀飲品的高畫質攝影;‘藝術字宣傳標語’處是用書法寫的‘東方草本,純粹自然’;左下角‘正文內容區’是關於原料的介紹文字,右下角‘使用者評價欄’則顯示五星好評和短評‘茶香濃郁,回味甘甜!’。也可以根據草圖來製作廣告圖:提示詞:根據這個草圖製作一則廣告甚至可以讓它在一個指定的網格上畫圖。提示詞:[上傳網格圖]生成一個中國傳統舞龍龍頭的像素畫Sprite,使其完美對齊並填充進這個網格圖像中。請僅使用高飽和度的紅、黃、青色板,避免中間色調,以確保清晰度。💡 獨家心法:到底怎麼寫提示詞?看了這麼多案例,你可能發現了:NBP 根本不需要那些亂七八糟的“咒語”標籤。Google官方文件裡反覆強調了一個“黃金法則”:請像跟人說話一樣,跟 AI 說話。❌ 錯誤示範(堆砌標籤):“酷車,霓虹,城市,夜晚,8k,傑作,最佳畫質。” (這是在寫程式碼,不是在交流。)✅ 正確示範(自然語言):“充滿電影感的廣角鏡頭,拍攝一輛未來派跑車在夜晚雨後的上海街道上疾馳。霓虹燈的倒影映照在潮濕的路面和汽車金屬底盤上。”三個建議送給大家:別太模糊: “一個女人”是無效指令;“一個年輕的亞洲女性,眼神堅毅”才是有效指令。學會“微調”: 不要每次都重畫。如果一張圖 80% 滿意,就告訴它:“很好,把光線改成日落,其他別動。”給背景資訊: 它有腦子,告訴它“你是為一家書店做設計”,它會自己補全很多符合邏輯的細節。 (AI范兒)